研究发现AI生成文本水印能被轻易擦掉,水印伪造成功率竟达80%左右

研究人员发现,在人工智能生成文本中添加的水印很容易被删除,而且会被窃取和复制,使其变得毫无用途。他们表示,这类攻击破坏了水印技术的可靠性,可以欺骗人们相信他们本不应该相信的内容。

水印的工作原理是,在人工智能生成的文本中插入隐藏“信息”,使计算机能够识别出文本来自于人工智能系统。它们是一项相当新的发明,但已经成为对抗人工智能所产生的错误信息和抄袭内容的流行解决方案。

例如,2024 年 5 月生效的欧盟《人工智能法案》要求,开发者要为人工智能生成的内容加上水印。

但瑞士苏黎世联邦理工学院的博士生罗宾·斯塔布(Robin Staab)表示,新的研究表明水印技术的水平并没有达到监管机构的要求。他参与了这项最新研究。

该研究尚待同行评审,但将在 2024 年 5 月份的国际学习表征会议(ICLR,International Conference on Learning Representations)大会上演讲。

人工智能语言模型的工作原理是预测句子中的下一个单词,并在这些预测的基础上生成可能性最大的单词。

文本水印算法将语言模型的词汇划分为“绿色列表”和“红色列表”,然后让人工智能模型从绿色列表中选择单词。

绿色列表中的单词越多,文本就越有可能是由计算机生成的,因为人类写出的句子倾向于使用随机性更高的单词组合。

研究人员篡改了五种以这种方式工作的水印。斯塔布说,他们能够通过 API 访问采用了水印技术的人工智能模型,并多次向其发送提示,对水印实施逆向工程。

通过收集到的回应,攻击者可以摸索出一套类似的水印规则,并建立一个相似的模型来“窃取”水印。他们通过分析人工智能输出并将其与普通文本进行比较来实现这一点。

一旦研究人员大致了解了水印单词(列表)包含了什么,他们就可以执行两种攻击。

第一种被称为欺骗攻击(spoofing attack),攻击者会使用他们从水印规则中获得的信息,生成像是被加上了水印的文本。

第二种攻击允许攻击者分离水印和人工智能生成的文本,这样就可以伪装成是人类写的。

最终,该团队伪造水印的成功率约为 80%,剥离水印的成功率为 85%。

没有参与苏黎世联邦理工学院团队这项研究的研究人员,如美国马里兰大学可靠人工智能实验室副教授兼主任索海尔·菲兹(Soheil Feizi),也发现水印技术不可靠,容易受到欺骗攻击。

(来源:STEPHANIE ARNETT/MITTR | IMAGEFX, ENVATO)

菲兹说,苏黎世联邦理工学院的研究结果证实,现有水印技术存在很多问题,甚至可以延伸到当今最先进的聊天机器人和大型语言模型中。

他说,这项研究“强调了在大规模部署此类检测机制时,谨慎行事是多么的重要”。

参与了这项研究的苏黎世联邦理工学院博士生尼古拉·约万诺维奇(Nikola Jovanović)表示,尽管有这些发现,水印仍然是检测人工智能生成内容的最有希望的方法。

但他补充道,在大规模部署水印之前,还需要完成更多的研究。在那之前,我们应该对这些工具的可靠性和有用性降低期望。他说:“它是有用的,总比什么工具都没有好。”

支持:Ren

排版:刘雅坤